事实表:外键,来自维度表的主键
维度表:主键
用关系型数据库术语描述就是,键属性称为主键列。
事实表分成三种:事务事实表、周期快照事实表、累计快照事实表
官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表
如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如:以天举例,财务报表一般都是周期快照事实表,它的最细粒度主键就是:日期+订单
累计快照表,具有确定的开始和结束事件,并且记录关键事件或者过程的里程碑,它因此包含了很多日期的外键
从概率分布的角度考虑,对于一堆样本数据,每个均有特征对应分类标记。
生成模型:学习得到联合概率分布 P(x,y)=P(x|y),即特征 x 和标记 y 共同出现的概率,然后求条件概率分布。能够学习到数据生成的机制。
判别模型:学习得到条件概率分布 P(y|x),即在特征 x 出现的情况下标记 y 出现的概率。

Math Form: https://scikit-learn.org/stable/modules/naive_bayes.html
裁剪:

关联规则的概念最早是在 Agrawal 等人在 1993 年发表的论文 Miniing association rules between sets of items in large databases 中提出。关联规则挖掘(关联分析)用于发现隐藏在大型数据集中的联系或者规律。如今随着数据行业的快速发展,我们面对的数据规模愈发巨大,人们对于挖掘海量数据中隐含的关联知识也越来越感兴趣。
也就是 A 和 B 同时发生的概率
该指标作为建立强关联规则的第一个门槛,通过最小阈值(minsup)的设定,来剔除那些 “出镜率” 较低的无意义的规则:
A 发生时 B 发生的概率(条件概率)
也要对置信度设置 最小阈值(mincon) 来进一步筛选满足需要的强关联规则。因此,继产生频繁项集后,需从中进而选取满足:
置信度与支持度的比值

见上
L 邻接矩阵
https://blog.csdn.net/hguisu/article/details/8013489
